P值 | 一个可以,三个不能
P值只是在特定数据和模型的条件下,利用显著性检验理论框架进行统计推断,以表明总体未知特征是否具有统计显著性的一个简化阈值标准。但是,随着研究问题的复杂性和不确定性的增加,P值已逐渐被研究人员“异化”成为论文能否发表的“关键之值”,部分研究人员似乎忘了研究本来的真正目标,而是将研究目的变为竭尽全力追逐一个小于0.05的P值。进而,一个小小的P值引发了许多重大的“科学”发现。
对于一个特定的数据集,常用的研究方法是对此数据集在一定的假设条件下设定一个模型,由于不确定性,数据与模型之间总会存在不相容性,将这些假设的条件与设定的模型统称为“原假设’。一般来说,“原假设”表示某种效应不存在,例如两个试验组之间不存在差异,或一个因素与一种结果之间的没有关系。如果在给定的“原假设”(假设的条件与设定的模型)下计算得到了一个P值,而此P值越小,数据与“原假设”之间统计的不相容性就越大,这种不相容性可以用来诠释对“原假设”存疑的程度,或提供反对“原假设”成立的证据。所以,P值可以表明数据与一个设定统计模型之间不相容的程度。不过,对于研究者来说,更加重要的是要特别关注P值的“三个不能”。
01
P值不能度量某个研究假设为真或假的概率,也不能度量数据仅由随机因素影响的概率。
研究人员非常希望将P值转化成一个“原假设”为真的证据,或者能够度量观测数据仅由随机事件造成的概率,但P值两者都做不到,P值只能解释数据与特定假设之间的关系,而并不能解释假设本身。
02
P值或统计显著性并不能度量某个效应的大小,也不能度量某种结果是否重要。
统计上的显著性并不等于科学、人文或经济上的重要性。较小的P值并不一定意味着有更大或更重要的效应;较大的P值也不代表重要性缺乏或更小的效应。所以,不管某个效应的影响有多小,当样本量足够大或测量精度足够高时,有可能得到一个较小的P值;反之,无论某个效应影响有多大,当样本量很小或测量不精确时,也可能会得到一个较大的P值。相类似,对于相同的估计效应,当估计的精度不同时也会得到不同的P值。
03
P值本身并不能对统计模型或研究假设的可信度进行一个充分的评价。
研究者应该在研究中清楚地意识到:在没有充分的专业理论背景和其他相关证据时,P值所能表示的信息极其有限。例如以0.05为标准,较小的P值只能为拒绝“原假设”提供非常弱的信息。同样,相对较大的P值也不一定意味着信息就偏向支持“原假设”,因为可能还有其他的“假设”与观测数据具有更强的一致性。因此,如果还存在其他可靠的研究证据,研究者对数据的分析就不应仅仅停留在对P值的计算上。
参考文献
郝丽, 刘乐平, & 申亚飞. (2016). 统计显著性:一个被误读的p值——基于美国统计学会的声明. 统计与信息论坛, 31(12), 3-10.
声明:部分文章和信息来源于互联网,如转载内容涉及版权等问题,请立即与小编联系,我们将迅速采取适当的措施。
感谢您抽出
更多精彩请点击下列分类文章
↓↓↓
初学者应该记住一个原则,即他们最不愿意在督导中分享的可能就是最重要的和督导师讨论的问题。